Leia a tabela no documento.

VB C#

using IronOcr;
using System.Linq;

// Instantiate OCR engine
var ocr = new IronTesseract();

using var input = new OcrInput();
input.LoadPdf("table.pdf");

// Perform OCR
var result = ocr.ReadDocumentAdvanced(input);

var cellList = result.Tables.First().CellInfos;

Imports IronOcr
Imports System.Linq

' Instantiate OCR engine
Private ocr = New IronTesseract()

Private input = New OcrInput()
input.LoadPdf("table.pdf")

' Perform OCR
Dim result = ocr.ReadDocumentAdvanced(input)

Dim cellList = result.Tables.First().CellInfos

Install-Package IronOcr

Leia a tabela no documento.

Este exemplo de código demonstra como usar o mecanismo OCR IronTesseract para extrair texto e dados de tabela de um documento PDF.

Uma instância do mecanismo OCR IronTesseract é criada.
Um objeto OcrInput é inicializado e um arquivo PDF ("table.pdf") é carregado usando o método LoadPdf.
O mecanismo OCR processa o documento usando o método ReadDocumentAdvanced, que retorna um objeto OcrResult mais detalhado.
A primeira tabela encontrada no documento é acessada usando result.Tables.First(), e as informações da célula para essa tabela são extraídas com CellInfos.
A lista de dados da célula (cellList) agora contém as células da tabela, incluindo o conteúdo do texto e outros detalhes (por exemplo, posição da célula, tamanho).
Este método é útil para extrair dados estruturados, como tabelas, de PDFs, permitindo que o texto dentro de cada célula da tabela seja acessado e processado programaticamente.